音声情報処理 08
歌声に対する情報処理
歌声分析
ピッチの推定
声の分析
歌唱表現の分析
歌声合成 Vocal Synthesizer
歌声を⽤いたアプリケーション
歌声とは
歌唱はもっとも⾝近な演奏活動
声は多くの⼈が⽣来有している「楽器」
歌唱の獲得
⽇常的に接する「声」は同⼀⾔語であれば,受信と発信が⽐較的容易
⾳楽的知識や経験がなくても歌うことはできる
楽曲からのボーカル⾳声の抽出
できることだからこそのニーズ
感動する歌声が聴きたい
うまく歌いたい
要求レベルが高い
歌声分析の意義
歌声分析の価値
学術的観点
歌唱という側⾯から⼈間を知る
鳥の声が歌に聞こえる
歌唱指導へと応⽤
実⽤的観点
歌声合成は歌声⽣成機構の究明
歌唱付き楽曲制作の実現・⽀援
VOCALOID ボーカロイド
Composition 合成と分析の相互作⽤
合成には分析によって得られた知⾒が必要不可⽋
歌声合成 Vocal Synthesizer技術の確⽴が,各特徴量と歌声知覚の関係についての仮説につながる:歌声知覚機構の解明
歌声分析や合成のための基礎知識と要素技術
「歌声に特有の」特性分析
メロディやリズムをもつ
歌唱様式や表情付け
歌い⽅や発声⽅法が様々
発声される歌詞も⼀般的な音声とは異なる⽂法
要素技術
⾳⾼
基本周波数の推定
⾳韻や声質
スペクトル包絡やフォルマント周波数の推定
歌声合成 Vocal Synthesizerにおける知⾒
基本周波数変化の特性
基本周波数変化の概形はメロディに対応
歌声特有の動的な変動成分(F0動的変動成分)が存在
スペクトル特性
Singerʼs format:3kHz付近に現れるスペクトルピーク
歌声中のブレス⾳
基本周波数推定
⾳声から短時間のフレーム時間を取り出してその区間内での周期を推定
その周期の逆数が周波数
有声⾳の周波数 Frequency 振動数:声帯振動の時間間隔の逆数
基本周波数の⾼低:ピッチの⾼低
短時間のフレーム内でも微細に変化してしまう
基本周波数の推定⽅法
⾳声の時間波形に対する周期性に着⽬した分析
パワースペクトルの調波構造に着⽬した分析
F0動的変動成分
歌唱スタイルや歌唱者に依存せず 4種類存在
オーバーシュート
滑らかな⾳⾼変化,および,その直後に⽬的⾳⾼を超える時間的な変動成分
ビブラート
同⼀⾳区間で観測される4~8Hzの準周期的な変動成分
プレパレーション
⾳⾼変化直前に変化とは逆⽅向に触れる瞬時的な変動成分
微細変動
発声区間全体に観測される不規則で細かい変動成分
Singerʼs formant
第3〜第5フォルマントが互いに近づいて⼀つの⼭を⽣成したもの
⺟⾳によらず周波数は⼀定
「響く声」「通る声」「張り・ツヤのある声」を特徴づける
ブレス⾳
息継ぎ
歌唱者,楽曲,⾔語,歌唱⼒によらずピークが存在
歌声に基づくアプリケーション
⾳楽情報検索
ハミング検索
声質が類似している歌⼿の楽曲を検索
歌唱⼒向上⽀援
歌唱に関する⾳響特徴をリアルタイムに可視化
ビブラートの検出など歌唱表現の可視化
楽曲制作
DTMでの歌声によるメロディの⼊⼒
歌唱中のブレスを⾃動検出:ブレスを消したり強調したり
研究は両方向から進む